import os
from pmp_pdf2md import pdf_to_markdown
# from TSR_pdf2md import pdf_to_markdown
import logging
from log_config import setup_logging

# 日志初始化
setup_logging()
def main(pdf_paths, output_dir="./output",processes_draw=False):
    """
    主函数，处理PDF文件并生成Markdown文件。

    Args:
        pdf_paths (list): PDF文件路径列表。

    Returns:
        list: 生成的Markdown文件路径列表。
    """
    # 自动切换工作目录到当前脚本所在目录
    script_dir = os.path.dirname(os.path.abspath(__file__))
    parent_dir = os.path.dirname(script_dir)
    os.chdir(parent_dir)
    logging.info(f"当前脚本目录: {parent_dir}")
    md_paths = []
    # 遍历每个PDF文件
    for pdf_path in pdf_paths:
        # 调用pdf_to_markdown函数处理PDF文件
        md_path, _ = pdf_to_markdown(
            pdf_path=pdf_path,
            output_dir=output_dir,
            pre_md_save=True,
            processes_draw=processes_draw
        )
        # 将生成的Markdown文件路径添加到列表中
        md_paths.append(md_path)
    return md_paths
if __name__ == "__main__":
    # 测试代码
    pdf_paths = ["/home/fengjie/doc-parser/MinerU/input_doc/sample/提取自√3.14-国家电力投资集团有限公司2025年度第五期中期票据(能源保供特别债)募集说明书.pdf"]
    md_paths = main(pdf_paths,processes_draw=False)
    print(f"生成的Markdown文件路径: {md_paths}")
